gantt
title Planificación del proyecto
dateFormat DD-MM-YYYY
axisFormat %d-%m
todayMarker off
section Avance 1
(Daniela) Definición de objetivos :done, 2025-01-9, 2d
(José) Transformación de datos :done, 2025-01-11, 1d
(Fali y José) Tratamiento de datos faltantes :done, 3d
(Todos) Revisión final :done, 2025-01-15, 1d
section Avance 2
(Leisy y Vincenzo) Organización de datos :done, 2025-01-18, 3d
(Vincenzo) Análisis descriptivo (objetivo 1) :done, 2025-01-19, 3d
(José) Análisis descriptivo (objetivo 2) :done, 2025-01-19, 3d
(Leisy) Análisis descriptivo (objetivo 3) :done, 2025-01-20, 2d
(Daniela) Análisis descriptivo (objetivo 4) :done, 2025-01-20, 2d
(Fali) Análisis descriptivo (objetivo 5) :done, 2025-01-21, 3d
(Todos) Revisión final :done, 2025-01-23, 2d
section Informe
(Fali) Introducción (relevancia) :done, 2025-01-28, 2d
(Daniela) Datos (población objetivo) :done, 2025-01-29, 1d
(José) Datos (tipo de muestreo) :done, 2025-01-29, 1d
(Fali y Daniela) Datos (tratamiento de datos) :done, 2025-01-29, 2d
(José) Datos (variables, limpieza) :done, 2025-01-30, 4d
(Vincenzo y José) Análisis descriptivo (organización de datos) :done, 2025-01-31, 2d
(Leisy) Análisis descriptivo (medidas de resumen) :done, 2025-01-31, 3d
(José y Daniela) Conclusiones :done, 2025-02-03, 2d
(Todos) Revisión final :done 2025-02-05, 1d
section Avance 1
(Daniela) Variable 1 :done, 2025-02-11, 1d
(Grayson) Variable 2 :done, 2025-02-11, 2d
(Todos) Revisión final :done, 2025-02-13, 1d
section Avance 2
(Leisy) Variable discreta 1 :done, 2025-02-17, 2d
(Fali) Variable discreta 2 :done, 2025-02-17, 2d
(Vincenzo) Variable discreta 3 :done, 2025-02-18, 1d
(Grayson) Variable continua :done, 2025-02-18, 2d
(Daniela) Nuevas conclusiones :done, 2025-02-19, 2d
(Todos) Revisión final :done, 2025-02-21, 1d
section Informe
(Daniela) Ediciones de redacción :done, 2025-02-23, 2d
(Todos) Revisión final :done, 2025-02-24, 2d
Perfilamiento de clientes que están dispuestos a adquirir una cuenta de ahorro en una institución bancaria
1 Introducción
1.1 Relevancia
El perfilamiento de clientes es clave para optimizar las campañas telefónicas de un banco al ofrecer cuentas de ahorro. Este proyecto analiza datos de una campaña para mejorar la eficiencia en la captación de clientes mediante la segmentación financiera y demográfica.
1.2 Planificación
Las fechas que indica el eje horizontal del diagrama son todas del año 2025, pero ello se omite para mayor claridad en las etiquetas.
1.3 Objetivos
1.3.1 Objetivo general
El objetivo principal de este proyecto es conocer los factores que influyen en la aceptación de una cuenta de ahorro vía telefónica para los clientes de una entidad bancaria a través de la identificación de patrones usando el análisis estadístico.
1.3.2 Objetivos específicos
Dentro del marco del objetivo general, nuestro grupo considera los siguientes objetivos específicos:
- Analizar la relación entre el estado financiero de un cliente (
balance,mora) y su predisposición a aceptar una cuenta de ahorro. - Identificar el impacto de las características demográficas (
edad,estciv) en la decisión de adquirir una cuenta de ahorro. - Identificar un posible patrón en el nivel de educación (
educacion) de las personas que aceptan abrir una cuenta de ahorro. - Evaluar el efecto de las variables relacionadas con la interacción con el cliente (
campana) en la decisión de adquirir una cuenta de ahorro. - Identificar el tiempo posterior promedio de la última llamada a los clientes (
pdias) antes de aceptar abrir una cuenta de ahorro.
2 Datos
2.1 Población objetivo
Acorde con el enlace provisto en la referencia de los datos, la población objetivo de este proyecto son los clientes del banco “RICARDO PALMA BANK”.
2.2 Tipo de muestreo
Dado que los datos con los que trabajamos en este proyecto fueron provistos por los docentes del curso y no hay suficiente información sobre su origen, no se puede determinar con certeza el tipo de muestreo utilizado para recolectarlos.
2.3 Tratamiento de datos
df <- suppressMessages(read_csv("AdquisicionAhorro.csv"))
df# A tibble: 2,240 × 14
coddoc edad estciv educacion mora balance vivienda prestamo dia duracion
<chr> <dbl> <chr> <chr> <chr> <chr> <chr> <chr> <dbl> <dbl>
1 CODDOC… 30 marri… primaria no 1787.52 no no 19 79
2 CODDOC… 33 marri… secundar… no 4789.70 si si 11 220
3 CODDOC… 35 single terciario no 1350.72 si no 16 185
4 CODDOC… 30 marri… terciario no 1476.23 si si 3 199
5 CODDOC… 35 single terciario no 747.14 no no 23 141
6 CODDOC… 41 marri… terciario no 221.16 si no 14 57
7 CODDOC… 43 marri… primaria no 88.20 si si 17 313
8 CODDOC… 39 marri… secundar… no 9374.6 si no 20 273
9 CODDOC… 31 marri… secundar… no 360.5 si si 29 89
10 CODDOC… 25 single primaria no 221.8 si no 23 250
# ℹ 2,230 more rows
# ℹ 4 more variables: campana <dbl>, pdias <dbl>, previo <dbl>,
# Adq_Ahorro <dbl>
En total, la tabla tiene 14 columnas y 2240 filas.
La variable balance es de tipo “texto”. Arreglaremos esto con la función as.numeric.
Se observan los datos faltantes por columna:
colSums(is.na(df)) coddoc edad estciv educacion mora balance vivienda
0 10 12 18 9 85 16
prestamo dia duracion campana pdias previo Adq_Ahorro
9 5 12 11 1 1 0
Esto constituye 189 datos faltantes: un 1% del total de 31360. Esto son 168 observaciones con algún dato faltante: un 8% del total.
Los datos faltantes mayormente serán tratados mediante imputación de datos. Sin embargo, para la columna pdias, optamos por eliminar las observaciones donde esta variable sea NA, porque esta variable sólo tiene un dato faltante.
2.4 Variables
De acuerdo a los objetivos específicos de este informe (véase Sección 1.3.2), las variables que consideraremos para este análisis son las siguientes:
| Variable | Tipo | Descripción | Restricciones |
|---|---|---|---|
Edad (edad) |
cuantitativa discreta | Edad del encuestado. | \(\geq 18\). |
Estado civil (estciv) |
cualitativa nominal | Estado civil del encuestado. | Uno de "married, "single", "divorced". |
Educación (educacion) |
cualitativa ordinal | Nivel educativo del encuestado. | Uno de "primaria", "secundaria", "terciario". |
Mora (mora) |
cualitativa nominal, dicotómica | Si el encuestado posee crédito en mora. | Uno de "si", "no". |
Balance (balance) |
cuantitativa continua | Balance promedio anual en euros del encuestado. | Mayor o igual a \(0\). |
Campaña (campana) |
cuantitativa discreta | Número de contactos realizados con el encuestado durante la presente campaña. | Mayor a \(0\). |
PDias (pdias) |
cuantitativa discreta | Número de días transcurridos desde el último contacto con el encuestado (o -1 si no fue contactado previamente). |
Mayor a \(0\) o igual a \(-1\). |
Adquisición de cuenta de ahorro (adq_ahorro) |
cualitativa nominal, dicotómica | Si el encuestado adquirió la cuenta de ahorro. | Igual a \(0\) o a \(1\). |
2.5 Limpieza
Omitido, fue presentado en la primera entrega.
Warning: There was 1 warning in `mutate()`.
ℹ In argument: `balance = as.numeric(balance)`.
Caused by warning:
! NAs introduced by coercion
3 Análisis descriptivo
filter_outliers <- function(x, factor = 1.5) {
iqr = IQR(x)
lower_bound = quantile(x, 0.25, type = 3) - factor * iqr
upper_bound = quantile(x, 0.75, type = 3) + factor * iqr
return(x[x >= lower_bound & x < upper_bound])
}3.1 Organización de datos
| adq_ahorro | min | q1 | mediana | media | q3 | max | rango | cv | sd |
|---|---|---|---|---|---|---|---|---|---|
| 0 | 21 | 33 | 39 | 41.16 | 33 | 77 | 56 | 0.26 | 10.51 |
| 1 | 19 | 33 | 40 | 41.25 | 33 | 86 | 67 | 0.25 | 10.50 |
| adq_ahorro | media | mediana | moda | cv | max | min | rango | sd |
|---|---|---|---|---|---|---|---|---|
| 0 | 2.80 | 2 | 1 | 0.95 | 21 | 1 | 20 | 2.65 |
| 1 | 2.84 | 2 | 1 | 1.16 | 50 | 1 | 49 | 3.30 |
df_aux_2 <- df %>% filter(pdias == -1)
pdias_table <- table(df_aux_2$adq_ahorro)
colors <- c("hotpink", "lightblue3")
labels <- paste0(r(100 * pdias_table / sum(pdias_table)), "%")
pie(
pdias_table,
main = "Adquisición de cuenta (clientes no contactados previamente)",
labels = labels,
col = colors
)
legend("topleft", legend = c("No adquirió", "Sí adquirió"), fill = colors)3.2 Medidas de resumen
3.2.1 Análisis univariado
Con respecto a la variable campana (objetivo 4), de la Figura 8, la moda indica que la mayoría de los encuestados aceptaron o rechazaron la cuenta de ahorro en el primer contacto.
3.2.2 Análisis bivariado
3.2.2.1 Objetivo 1
Analizar la relación entre el estado financiero de un cliente (
balance,mora) y su predisposición a aceptar una cuenta de ahorro.
Con respecto a balance, al analizar la Figura 1 la mediana y el primer cuartil son similares en ambos grupos, pero el tercer cuartil es mayor en quienes adquirieron la cuenta, indicando mayor variabilidad y concentración de valores altos.
Respecto a la mora, aunque pocos encuestados la presentan, podría influir en la adopción de la cuenta. La figura Figura 2 sugiere que quienes tienen mora tienden a aceptarla con mayor frecuencia.
3.2.2.2 Objetivo 2
Identificar el impacto de las características demográficas (
edad,estciv) en la decisión de adquirir una cuenta de ahorro.
El análisis de edad muestra cuartiles similares en ambos grupos, pero la mayoría de los mayores de 70 años adquirieron la cuenta, sugiriendo un posible patrón (véase Figura 3 y Tabla 2 para una confirmación numérica).
Respecto al estado esticv(véase Figura 4),no hay diferencias significativas, aunque hay menos casados entre quienes aceptaron la cuenta. Además, los solteros son generalmente más jóvenes que los casados o divorciados, acorde a tendencias esperadas.
3.2.2.3 Objetivo 3
Identificar un posible patrón en el nivel de educación (
educacion) de las personas que aceptan abrir una cuenta de ahorro.
Se observa de la Figura 6 que, a grandes rasgos, el nivel educativo más propenso a adquirir la cuenta de ahorroes el secundario, mientras que el menos propenso es el nivel primaria.
3.2.2.4 Objevo 4
Evaluar el efecto de las variables relacionadas con la interacción con el cliente (
campana) en la decisión de adquirir una cuenta de ahorro.
La media y la mediana del número de contactos son similares en ambos grupos(véase Figura 7 y en la Tabla 3), indicando que, en promedio, se realizaron casi la misma cantidad de intentos. Sin embargo, la mayor desviación estándar en quienes adquirieron la cuenta sugiere una mayor variabilidad.
Además, en algunos casos, un mayor número de intentos se asocia con la adquisición. Finalmente, la moda en ambos grupos es 1, lo que sugiere que la mayoría decide aceptar o rechazar la cuenta en el primer contacto.
3.2.2.5 Objetivo 5
Identificar el tiempo posterior promedio de la última llamada a los clientes (
pdias) antes de aceptar abrir una cuenta de ahorro.
En la Figura 9, la media y los cuartiles 1 y 3 son similares entre quienes adquirieron y no adquirieron la cuenta, aunque con diferencias. En promedio, quienes aceptaron la cuenta fueron contactados más recientemente y presentan datos atípicos de hasta 800 días.
La Figura 10 muestra que, entre los clientes no contactados previamente, la mayoría adquirió la cuenta.
4 Análisis probabilístico
4.1 Probabilidad empírica
4.1.1 Variable 1
La primera variable aleatoria que analizaremos será el nivel educativo (educacion), de tipo ordinal con posibles valores \(\text{primaria} < \text{secundaria} < \text{terciario}\), en ese orden. El análisis de probabilidades ayuda a definir la demografía objetivo para las campañas de marketing del banco.
El espacio muestral de esta variable es
\[ \Omega = \{ \text{primaria}, \text{secundaria}, \text{terciario} \}. \]
Esta variable corresponde al siguiente experimento:
Seleccionar una persona al azar del presente estudio y observar su nivel educativo (
educacion).
4.1.1.1 Eventos atómicos
Esta variable cuenta con los siguientes eventos atómicos:
- Primaria: Seleccionar un cliente al azar del estudio cuyo nivel educativo educación primaria.
- Secundaria: Seleccionar un cliente al azar del estudio cuyo nivel educativo sea secundaria.
- Terciario: Seleccionar un cliente al azar del estudio cuyo nivel educativo sea terciario.
4.1.1.2 Probabilidades
La tabla de frecuencias de educacion es la siguiente:
| educacion | Freq |
|---|---|
| primaria | 331 |
| secundaria | 1247 |
| terciario | 661 |
En total, educacion tiene un tamaño efectivo de 2239. Por lo tanto, las probabilidades empíricas de cada evento atómico mencionado anteriormente son las siguientes:
\[ \begin{align} & \mathbb{P}(\text{primaria}) = \frac{331}{2239} \approx 0.14 \\ & \mathbb{P}(\text{secundaria}) = \frac{1247}{2239} \approx 0.56 \\ & \mathbb{P}(\text{terciario}) = \frac{661}{2239} \approx 0.3 .\end{align} \]
Podemos comprobar que estas probabilidades son válidas, ya que su suma es \(1\):
\[ \mathbb{P}(\text{primaria}) + \mathbb{P}(\text{secundaria}) + \mathbb{P}(\text{terciario}) = \frac{331}{2239} + \frac{1247}{2239} + \frac{661}{2239} = \frac{2239}{2239} = 1. \]
4.1.2 Variable 2
La segunda variable aleatoria será una clasificación categórica del número de contactos durante la última campaña (campana) para identificar patrones y determinar cuántos intentos son necesarios para obtener una respuesta del cliente.
Esta variable corresponde al siguiente experimento:
Seleccionar una persona al azar del presente estudio y observar el número de contactos realizados a dicho cliente durante la última campaña.
| Valores | Categoría |
|---|---|
| \(1\) | 1 contacto |
| \(2\) | 2 contactos |
| \(3\) | 3 contactos |
| \(4\) | 4 contactos |
| \(5, 6, \ldots, 10\) | De 5 a 10 contactos |
| \(11, 12, \ldots\) | Más de 10 contactos |
El espacio muestral de esta variable es
\[ \begin{align} \Omega = \{ & \text{1 contacto}, \\ & \text{2 contactos}, \\ & \text{3 contactos}, \\ & \text{4 contactos}, \\ & \text{De 5 a 10 contactos}, \\ & \text{Más de 10 contactos} \} .\end{align} \]
4.1.2.1 Eventos atómicos
Esta variable cuenta con los siguientes eventos atómicos:
- 1 contacto: Seleccionar un cliente al azar del estudio al que se haya contactado una vez durante la última campaña.
- 2 contactos: Seleccionar un cliente al azar del estudio al que se haya contactado dos veces durante la última campaña.
- 3 contactos: Seleccionar un cliente al azar del estudio al que se haya contactado tres veces durante la última campaña.
- 4 contactos: Seleccionar un cliente al azar del estudio al que se haya contactado cuatro veces durante la última campaña.
- De 5 a 10 contactos: Seleccionar un cliente al azar del estudio al que se haya contactado de 5 a 10 veces durante la última campaña.
- Más de 10 contactos: Seleccionar un cliente al azar del estudio al que se haya contactado más de 10 veces durante la última campaña.
4.1.2.2 Probabilidades
La tabla de frecuencias de esta clasificación de campana es la siguiente:
| campana | Freq |
|---|---|
| 1 contacto | 869 |
| 2 contactos | 612 |
| 3 contactos | 263 |
| 4 contactos | 170 |
| De 5 a 10 contactos | 258 |
| Más de 10 contactos | 67 |
En total, campana tiene un tamaño efectivo de 2239. Por lo tanto, las probabilidades empíricas de cada evento atómico mencionado anteriormente son las siguientes:
\[ \begin{align} & \mathbb{P}(\text{1 contacto}) = \frac{869}{2239} \approx 0.39 \\ & \mathbb{P}(\text{2 contactos}) = \frac{612}{2239} \approx 0.27 \\ & \mathbb{P}(\text{3 contactos}) = \frac{263}{2239} \approx 0.12 \\ & \mathbb{P}(\text{4 contactos}) = \frac{170}{2239} \approx 0.08 \\ & \mathbb{P}(\text{De 5 a 10 contactos}) = \frac{258}{2239} \approx 0.12 \\ & \mathbb{P}(\text{Más de 10 contactos}) = \frac{67}{2239} \approx 0.03 .\end{align} \]
Podemos comprobar que estas probabilidades son válidas, ya que su suma es \(1\):
\[ \mathbb{P}(\text{1 contacto}) + \ldots + \mathbb{P}(\text{Más de 10 contactos}) = \frac{869}{2239} + \ldots + \frac{67}{2239} = \frac{2239}{2239} = 1. \]
4.2 Probabilidad condicional
Para este análisis condicional escogemos las variables estado civil (estciv) y adquisición de cuenta de ahorro (adq_ahorro). Estas variables tienen los siguientes espacios muestrales:
- Estado civil: \(\Omega = \{ \text{single}, \text{married}, \text{divorced} \}\).
- Adquisición de cuenta de ahorro: \(\Omega = \{ 0, 1 \}\) (donde \(0\) corresponde a “no adquirir la cuenta” y \(1\) corresponde a “sí adquirir la cuenta”).
| 0 | 1 | Sum | |
|---|---|---|---|
| divorced | 30 | 227 | 257 |
| married | 239 | 1157 | 1396 |
| single | 98 | 488 | 586 |
| Sum | 367 | 1872 | 2239 |
Los eventos que consideraremos son los siguientes:
- Evento 1 (\(E_1\)): Seleccionar un cliente al azar del estudio cuyo estado civil sea “married” (casado).
- Evento 2 (\(E_2\)): Seleccionar un cliente al azar del estudio que haya adquirido la cuenta de ahorro.
4.2.1 Análisis de dependencia
A partir de la Tabla 6 obtenemos directamente las siguientes probabilidades:
\[ \mathbb{P}(E_1) = \frac{1396}{2239}, \quad \mathbb{P}(E_2) = \frac{1872}{2239}, \quad \mathbb{P}(E_1 \cap E_2) = \frac{1157}{2239}. \]
Con esto, podemos evaluar las diferentes condiciones para determinar la independencia de \(E_1\) y \(E_2\).
Condición 1: \(\mathbb{P}(A \cap B) = \mathbb{P}(A) \cdot \mathbb{P}(B)\)
\[ \mathbb{P}(E_1 \cap E_2) = \frac{1157}{2239} \approx 0.517 \neq 0.521 \approx \frac{1396}{2239} \cdot \frac{1872}{2239} = \mathbb{P}(E_1) \cdot \mathbb{P}(E_2) \]
Condición 2: \(\mathbb{P}(A | B) = \mathbb{P}(A)\)
\[ \mathbb{P}(E_1 | E_2) = \frac{\mathbb{P}(E_1 \cap E_2)}{\mathbb{P}(E_2)} = \frac{\frac{1157}{2239}}{\frac{1872}{2239}} = \frac{1157}{1872} \approx 0.618 \neq 0.623 \approx \frac{1396}{2239} = \mathbb{P}(E_1). \]
Condición 3: \(\mathbb{P}(B | A) = \mathbb{P}(B)\)
\[ \mathbb{P}(E_2 | E_1) = \frac{\mathbb{P}(E_2 \cap E_1)}{\mathbb{P}(E_1)} = \frac{\frac{1157}{2239}}{\frac{1396}{2239}} = \frac{1157}{1396} \approx 0.829 \neq 0.846 \approx \frac{1872}{2239} = \mathbb{P}(E_2). \]
Ley de Bayes:
\[ \mathbb{P}(E_2 | E_1) = \frac{\mathbb{P}(E_1 | E_2) \cdot \mathbb{P}(E_2)}{\mathbb{P}(E_1 | E_2) \cdot \mathbb{P}(E_2) + \mathbb{P}(E_1 | E_2^c) \cdot \mathbb{P}(E_2^c)} = \frac{\frac{1157}{1872} \cdot \frac{1872}{2239}}{\frac{1157}{1872} \cdot \frac{1872}{2239} + \frac{239}{367} \cdot \frac{367}{2239}} = \frac{1157}{1396} \]
Se puede concluir de estas condiciones que \(E_1\) y \(E_2\), hablando estrictamente, son dependientes ya que \(\mathbb{P}(A \cap B) \neq \mathbb{P}(E_1) \cdot \mathbb{P}(E_2)\) y \(\mathbb{P}(E_1 | E_2) \neq \mathbb{P}(E_1)\). Sin embargo, cabe destacar que, aunque diferentes estas probabilidades, son extremadamente similares. Esto se puede interpretar como que \(E_1\) y \(E_2\), aunque sean eventos dependientes, se acercan mucho a ser independientes. Esto tiene sentido en relación a la Figura 4, donde se visualizan las proporciones similares de estos eventos.
5 Variables aleatorias
5.1 Variable discreta 1
Un caso de ejemplo para esta variable es el siguiente:
Se busca seleccionar del presente estudio a las personas que hayan sido contactadas no más de 2 veces, ¿cuál es la probabilidad de seleccionar exactamente 1500 personas del total (\(n = 2239\)) que cumplan con esta característica?
En este contexto, definimos la siguiente variable aleatoria discreta:
\(X_1\): Número de personas del conjunto de 2239 que han sido contactadas a lo mucho 2 veces durante la campaña.
Por su definición, esta variable sigue el modelo binomial
\[ X_1 \sim \operatorname{B}(n, p), \]
donde:
- \(n = 2239\) es la cantidad de personas en el estudio.
- \(p = \mathbb{P}(\text{campana} \leq 2)\) es la probabilidad empírica de que una persona del estudio escogida al azar hay sido contactada no más de 2 veces durante la presente campaña.
5.1.1 Gráficos y propiedades
A partir de la definición de \(X_1\), se deducen las siguientes probabilidades:
- \(\mathbb{P}(X_1 = 0)\): Probabilidad de que ningún cliente del estudio haya sido contactado a lo mucho 2 veces en la presente campaña.
- \(\mathbb{P}(X_1 = 1)\): Probabilidad de que exactamente 1 cliente del estudio haya sido contactado a lo mucho 2 veces en la presente campaña.
- …
- \(\mathbb{P}(X_1 = 2239)\): Probabilidad de que todos los clientes del estudio hayan sido contactados a lo mucho 2 veces en la presente campaña.
La gráfica de la distribución es la siguiente:
Además, la parte central de la distribución es la siguiente:
Algunas propiedades de esta distribución teórica son:
- \(\operatorname{E}(X_1) = 1481\) (valor esperado).
- \(\operatorname{V}(X_1) = 501.38\) (varianza).
- \(\operatorname{SD}(X_1) = 22.39\) (desviación estándar).
- \(\operatorname{CV}(X_1) = 0.02\) (coeficiente de variación).
5.1.2 Aplicaciones
La pregunta
¿Cuál es la probabilidad de seleccionar exactamente 1500 personas del total (\(n = 2239\)) que hayan sido contactadas a lo mucho 2 veces durante la campaña?
se puede responder mediante la probabilidad
\[ \mathbb{P}(X_1 = 1500) = 0.01. \]
La probabilidad de seleccionar exactamente 1500 clientes contactados ≤2 veces es del 1%, un valor muy bajo, esto tiene sentido, porque el tamaño de la muestra (\(2239\)) es grande en comparación a \(1\), así que cualquier valor particular tendrá una probabilidad baja de ocurrir.
En este sentido, una pregunta más interesante podría ser
¿Cuál es la probabilidad de que entre 1300 a 1500 personas del total de \(n = 2239\) hayan sido contactadas a lo mucho 2 veces durante la presente campaña?
Esta pregunta se puede responder mediante la probabilidad
\[ \mathbb{P}(1300 \leq X_1 \leq 1500) = \mathbb{P}(X_1 \leq 1500) - \mathbb{P}(X_1 \leq 1299) = 0.81. \]
La probabilidad de seleccionar entre 1300 y 1500 clientes contactados ≤2 veces es 81%. Tiene sentido que esta probabilidad sea tan alta, puesto que el rango entre \(1300\) y \(1500\) contiene a la media.
5.2 Variable discreta 2
df_adq <- df %>% filter(adq_ahorro == 1)Supongamos ahora el siguiente caso de ejemplo:
Tras este estudio, se plantea uno subsiguiente con un subconjunto de \(1000\) personas, seleccionadas entre quienes adquirieron la cuenta de ahorro. ¿Cuál es la probabilidad de que al menos \(45\) de ellas tengan \(60\) o más?
En este contexto, definimos la siguiente variable aleatoria discreta:
\(X_2\): Número de personas del subconjunto de \(1000\) seleccionado del total de \(1872\) (quienes adquirieron la cuenta de ahorro) que tienen al menos \(60\) años.
Debido a cómo está definida, esta variable sigue el modelo hipergeométrico
\[ X_2 \sim H(N, n, k), \]
donde:
- \(N = 1872\) es la cantidad de personas del estudio actual que adquirieron la cuenta de ahorro.
- \(n = 1000\) es el tamaño del subconjunto escogido al azar.
- \(k = 80\) es la cantidad de personas del estudio actual que adquirieron la cuenta de ahorro y tienen al menos 60 años.
5.2.1 Gráficos y propiedades
A partir de la definición de \(X_2\), se deducen las siguientes probabilidades:
- \(\mathbb{P}(X_2 = 0)\): Probabilidad de que ningún cliente del subconjunto de \(1000\) tenga al menos 60 años.
- \(\mathbb{P}(X_2 = 1)\): Probabilidad de que exactamente 1 cliente del subconjunto de \(1000\) tenga al menos 60 años.
- …
- \(\mathbb{P}(X_2 = 1000)\): Probabilidad de que todos los clientes del subconjunto de \(1000\) tengan al menos 60 años.
La gráfica de la distribución es la siguiente:
La forma de la distribución se puede apreciar mejor si se grafica la parte central:
Algunas propiedades de esta distribución teórica son:
- \(\operatorname{E}(X_2) = 42.74\) (valor esperado).
- \(\operatorname{V}(X_2) = 19.07\) (varianza).
- \(\operatorname{SD}(X_2) = 4.37\) (desviación estándar).
- \(\operatorname{CV}(X_2) = 0.1\) (coeficiente de variación).
5.2.2 Aplicaciones
La pregunta
¿Cuál es la probabilidad de que, de una muestra aleatoria de \(1000\) personas de quienes adquirieron la cuenta de ahorro en el estudio actual, al menos \(45\) tengan edad mayor o igual a \(60\) años?
se puede responder mediante la probabilidad
\[ \mathbb{P}(X_2 \geq 45) = 0.34. \]
En otras palabras, existe un 34% de probabilidad de que, de un subconjunto aleatorio de \(1000\) de entre el total de \(2239\), al menos \(45\) personas tengan \(60\) años o más.
Una pregunta que usa la función de probabilidad en lugar de la acumulada es la siguiente:
¿Cuál es la probabilidad de que, de una muestra aleatoria de \(1000\) personas de quienes adquirieron la cuenta de ahorro en el estudio actual, exactamente \(45\) tengan \(60\) añoso más?
Esta pregunta se puede responder mediante la probabilidad
\[ \mathbb{P}(X_2 = 45) = 0.08. \]
La probabilidad de que, en una muestra aleatoria de \(1000\) entre \(1872\) clientes, exactamente 45 tengan ≥60 años es 8%.
5.3 Variable discreta 3
Supongamos la siguiente situación:
Un estudio posterior evalúa la viabilidad de no realizar contactos telefónicos. ¿Cuál es la probabilidad de que se necesiten exactamente 10 selecciones aleatorias de clientes no contactados para encontrar uno que no adquirió la cuenta de ahorro?
En este contexto, definimos la siguiente variable aleatoria discreta:
\(X_3\): Cantidad de selecciones aleatorias (sin repetición) del conjunto de 1838 personas que no fueron contactadas (
pdias == -1) del presente estudio hasta seleccionar una que no haya adquirido la cuenta de ahorro.
Esta variable, por su definición, sigue el modelo probabilístico
\[ X_3 \sim \operatorname{Geom}(p), \]
donde \(p = 0.16\), la probabilidad de éxito, es igual a la probabilidad empírica de seleccionar al azar un cliente no contactado previamente (pdias == -1) que no haya adquirido la cuenta de ahorro.
5.3.1 Gráficos y propiedades
A partir de la definición de \(X_3\), se deducen las siguientes probabilidades:
- \(\mathbb{P}(X_3 = 0)\): Probabilidad de hacer 0 selecciones de entre los clientes no contactados hasta seleccionar un cliente que no adquirido la cuenta de ahorro.
- \(\mathbb{P}(X_3 = 1)\): Probabilidad de hacer 1 selección de entre los clientes no contactados hasta seleccionar un cliente que no adquirido la cuenta de ahorro.
- …
La gráfica de la distribución es la siguiente:
La parte central de la distribución se ve de la siguiente manera:
Algunas propiedades de esta distribución teórica son:
- \(\operatorname{E}(X_3) = 6.11\) (valor esperado).
- \(\operatorname{V}(X_3) = 31.18\) (varianza).
- \(\operatorname{SD}(X_3) = 5.58\) (desviación estándar).
- \(\operatorname{CV}(X_3) = 0.91\) (coeficiente de variación).
5.3.2 Aplicaciones
La pregunta formulada al inicio,
¿Cuál es la probabilidad de que tome exactamente 10 selecciones de clientes al azar de entre quienes no hayan sido contactados para hallar uno que no adquiera la cuenta de ahorro?
se puede responder mediante la probabilidad
\[ \mathbb{P}(X_3 = 10) = 0.03. \]
La probabilidad de necesitar exactamente 10 selecciones entre clientes no contactados para encontrar uno que no adquirió la cuenta es 3%.
Otra pregunta que se puede plantear es la siguiente:
¿Cuál es la probabilidad de necesitar más de 10 selecciones para encontrar uno que no adquirió la cuenta?
La respuesta a esta pregunta es
\[ \mathbb{P}(X_3 > 10) = 0.14. \]
Esto quiere decir que La probabilidad de necesitar más de 10 selecciones entre clientes no contactados para encontrar uno que no adquirió la cuenta es 14%
5.4 Variable continua
La variable continua que analizaremos será la siguiente:
\(X_4\): Balance de una persona seleccionada al azar de las \(1872\) que adquirieron la cuenta de ahorro en el estudio.
Aunque \(X_4\) no sigue alguna distribución de probabilidad conocida, muestra una tendencia exponencial, como muestra la Figura 17.
Cabe destacar que las curvas exponenciales que generaremos para aproximar esta distribución utilizan una tasa \(\beta\) igual a la media empírica del conjunto, ya que en una distribución exponencial se cumple la propiedad \(\mu = \beta\).
beta <- mean(df_adq$balance)Aunque la Figura 17 muestra una apariencia posiblemente exponencial, se puede comprobar numéricamente que la SD teórica de este modelo exponencial no coincide con la SD empírica por un gran margen de más del \(100\%\):
sd_teorica <- beta
sd_empirica <- sd(df_adq$balance)
sd_teorica[1] 1555.609
sd_empirica[1] 3281.318
Sin embargo, un modelo exponencial se ajusta algo mejor al considerar solo balances menores a 6000 euros como se muestra en la Figura 18. La curva de distribución exponencial se genera con tasa \(\beta\) igual a la media de estos balances filtrados.
En este caso, la tasa usada para la curva exponencial es la media de los balances menores a 6000.
df_adq_filt <- df_adq %>% filter(balance < max_bal)
beta <- mean(df_adq_filt$balance)Considerando a estos balances, las desviaciones estándar teórica y empírica son las siguientes:
sd_teorica <- beta # Acorde con la propiedad de la distribución exponencial
sd_empirica <- sd(df_adq_filt$balance)
sd_teorica[1] 965.2635
sd_empirica[1] 1261.765
Siguen sin ser iguales, pero ahora el error relativo es de 30.72% y la curva exponencial encaja mejor en la gráfica. El ajuste no es exacto, pero es suficiente para cálculos que no requieran mayor precisión.
Podemos comprobar que la curva de este modelo alternativo también encaja decentemente para los datos completos del balance:
No obstante, es necesario siempre tener en cuenta que este modelo, en general, encaja mejor en los balances menores a \(6000\) euros.
5.4.1 Aplicaciones
Supongamos que \(X_4\) sigue la distribución
\[ X_4 \sim \operatorname{Exp}(\beta), \]
donde \(\beta = 965.2634502\), la tasa, es igual a la media empírica de los balances menores a \(6000\) euros.
Ahora, supongamos que queremos saber lo siguiente:
¿Cuál es la probabilidad de que una persona seleccionada al azar que adquirió la cuenta tenga un balance de al menos \(2000\) euros?
Se puede calcular por medio de la probabilidad
\[ \mathbb{P}(X_4 \ge 2000) = 0.13. \]
Esto es: una persona seleccionada al azar del estudio tiene solo un \(4\%\) de probabilidad de tener un balance de al menos 2000 euros. Esto es un indicador de que la gran mayoría de clientes de la muestra no tienen balances más allá de los 2000 euros.
Otra posible consulta podría ser la siguiente:
¿Cuál es la probabilidad de que una persona seleccionada al azar que adquirió la cuenta tenga un balance entre \(500\) y \(1000\) euros?
Esta pregunta corresponde a la probabilidad
\[ \mathbb{P}(500 \leq X_4 \leq 1000) = \mathbb{P}(X_4 \leq 1000) - \mathbb{P}(X_4 < 500) = 0.24. \]
Existe un \(24\%\) de probabilidad de que una persona seleccionada al azar de entre quienes adquirieron la cuenta de ahorro tenga un balance entre \(1000\) y \(500\) euros, lo que es relativamente alto dado el rango..
6 Conclusiones
Considerando los análisis realizados en este informe, formulamos las siguientes conclusiones en base a nuestros objetivos:
- Los balances de quienes adquirieron la cuenta suelen ser superiores, con un rango predominante de 500 a 1000 euros. Además, hay una ligera mayor proporción de personas con historial de mora entre quienes la aceptan.
- La mayoría de los mayores de 70 años adquirieron la cuenta. En general, las distribuciones de edad son similares, aunque hay menos casados entre quienes la aceptan
- Las personas con secundaria son más propensas a adquirir la cuenta, mientras que aquellas con primaria presentan la menor tasa de adquisición.
- El número de contactos no varía mucho entre quienes adquieren la cuenta y quienes no. La mayoría decide en el primer contacto, destacando su importancia. Aunque muchos no contactados aceptan la cuenta, la probabilidad de que más de 10 seguidos lo hagan es baja.
- Quienes adquieren la cuenta suelen hacerlo en menos tiempo tras el último contacto. Además, muchos la obtuvieron sin ser contactados previamente, lo que reafirma la importancia de la primera impresión.